Automattic, empresa madre de Tumblr y WordPress, habría estado enviando datos a Midjourney y OpenAI para entrenar sus modelos de IA sin conocimiento de sus usuarios.

Un escándalo salpica a Tumblr.

La locura de las IA sigue en pleno apogeo. No sólo fabricantes como Samsung han caído en ellas, sino que hasta el Gobierno de España ha anunciado su propio modelo. Ante este panorama, iniciado por la revolución que supuso ChatGPT (que, vale la pena recordar, está arropado por inversiones multimillonarias de Microsoft que han llevado, entre otras cosas, a la creación de Copilot) hay quienes hace tiempo que piden que se detengan los experimentos con IA. La ciencia le ha dado la espalda a la IA, un signo más de que quizá el asunto se nos está yendo de las manos.

Cómo se nos estará yendo de las manos, que plataformas de publicación online como Tumblr y WordPress venderán datos de sus usuarios para entrenar modelos de IA. Ese es el escenario al que los usuarios de ambas van a enfrentarse según información publicada en 404 Media en un extenso artículo escrito por la periodista Samantha Cole.

Un lío de proporciones bíblicas

El artículo se ha realizado a partir de conversaciones internas obtenidas por el medio, pudiendo observar que se está creando una situación muy compleja en, al menos, Tumblr a la hora de recopilar datos para vendérselos a Midjourney y OpenAI. Esto formaría parte de un supuesto acuerdo con ambas empresas.

De hecho, en Tumblr todo este asunto ha generado una gran controversia entre los empleados. Una publicación interna hecha por Cyle Gage, director de producto de Tumblr, asegura que hay una petición hecha para preparar datos recopilados a partir de un número de posts enorme, que se venderían a Midjourney y OpenAI para entrenar sus modelos generativos.

Lo que no queda claro de esta publicación es si esta información ha sido enviada ya o no, pero por lo visto en dicha información van incluidas publicaciones privadas en blogs públicos, blogs borrados o suspendidos, preguntas no respondidas (y, por tanto, ocultas al público), respuestas privadas, publicaciones marcadas como explícitas y contenido de socios premium.

Al parecer, parte de esta información debería haber sido omitida. La empresa madre de Tumblr, Automattic (que también es la empresa madre de WordPress a día de hoy), debería haber preparado una lista de posts que no se iban a incluir en el trato. No obstante y, como citamos más arriba, no hay forma de saber si esta información ya ha sido enviada a OpenAI y Midjourney.

La empresa ha respondido de manera corporativa mediante la publicación de un comunicado en su web en el que podemos leer lo siguiente:

Compartiremos sólo contenido público que esté alojado en WordPress.com y en Tumblr de páginas que no hayan especificado que sus contenidos no quieren ser compartidos. […] También estamos trabajando directamente con empresas de IA concretas, al menos mientras sus planes se alineen con lo que a nuestra comunidad le preocupa: atribución, posibilidad de optar por no ceder sus datos y control sobre los mismos. Nuestras asociaciones respetarán todas aquellas decisiones de no ceder datos. También planeamos ir un paso más allá y actualizar a cualquier socio de personas que hayan decidido no compartir sus datos de manera reciente, pidiéndoles que su contenido sea eliminado de sus fuentes para entrenamientos futuros.

Como es fácil imaginar, esta declaración no ha satisfecho a nadie. Para los usuarios (especialmente en X, antigua Twitter) Automattic ha ido demasiado lejos. Hay incluso quien ha señalado que la persona a cargo de OpenAI abusaba de su hermana pequeña, diciendo que sea de la clase que sea sus abusos no tienen fin.

La venta de datos para entrenar modelos de IA se ha convertido en un negocio muy lucrativo para las webs y plataformas dedicadas a la publicación de contenido online. Sin ir más lejos, Reddit ha llegado a un acuerdo con Google para usar la inmensa base de conocimiento creado por sus usuarios para entrenar a su IA.

Para estar siempre al día con lo último en tecnología, suscríbete a nuestro canal oficial y verificado de Andro4all en WhatsApp.

Fuente info
Autor: Sergio Agudo